基于mRNA的疫苗已成为药物工业的主要重点。mRNA的编码顺序以及未翻译区域(UTRS)可以强烈影响翻译效率,稳定性,降解和其他共同确定疫苗有效性的因素。但是,这些特性的光学mRNA序列仍然是一个复杂的挑战。逐步学习深度学习模型通常仅专注于编码区域优化,忽略UTR。我们提出了Helix-MRNA,这是一种基于结构化的状态空间和注意力混合模型,可应对这些挑战。除了第一次预训练外,第二个预训练阶段还使我们能够使用高质量的数据来专业。我们使用密码子分离对mRNA序列进行单核苷酸令牌化,从而确保了原始mRNA序列的先前生物学和结构信息不会丢失。我们的模型Helix-MRNA在分析UTR和编码区域属性方面优于现有方法。它可以比当前方法长6倍,同时仅使用现有基础模型的10%参数。其预测能力扩展到所有mRNA区域。我们开放码(https://github.com/ helicalai/helical)和模型权重(https://huggingface.co/ helical-ai helical-ai/helix-mrna)。
主要关键词